Telegram Group & Telegram Channel
معرفی Toolformer

مدل‌های زبانی، در حل وظایف جدید با تنها چند مثال یا دستورالعمل متنی توانایی‌های قابل توجهی دارند، به ویژه در مقیاس بزرگ. در عین حال، برای عملکردهای پایه‌ای مثل محاسبات یا جستجوی factها دچار مشکل هستند، جایی که مدل‌های ساده‌تر و کوچک‌تر بسیار عالی عمل می‌کنند. این مقاله با معرفی Toolformer، نشون میده که مدل‌های زبانی چطوری می‌تونند خودشون رو با استفاده از API‌های ساده، آموزش بدن تا بهترین راهکار رو داشته باشند. مدل Toolformer، آموزش میبینه که تصمیم بگیره کدام API رو فراخوانی کنه، چه زمانی اونها رو فراخوانی کنه، چه آرگومان‌هایی رو منتقل کنه و چطوری به بهترین شکل از ترکیب نتایج برای پیش‌بینی توکن بعدی استفاده کنه.

این APIهای گنجانده شده در Toolformer شامل ماشین حساب، سیستم پرسش و پاسخ، موتور جستجو، سیستم ترجمه و یک تقویمه. آموزش این مدل به صورت خودبخودی و خودآموزه، که تنها به چند تا نمونه برای هر API نیاز داره. یعنی با استفاده از تعداد انگشت شماری نمونه‌های نوشته شده توسط انسان از فراخوانی یک API، به مدل این امکان داده میشه که برای یک مجموعه داده‌ی زبانی بزرگ، کاندیدهای فرخوانی API رو مرتبط با محتوای متن ایجاد کند (in-context learning). سپس با استفاده از یک تابع self-supervised loss مشخص میشه کدام فراخوانی‌ APIها واقعا به مدل برای پیش‌بینی توکن بعدی کمک می‌کنه. در نهایت مدل روی فراخوان‌های API ای که مفیدند finetune میشه.

مدل Toolformer، عملکرد zero-shot  رو برای مدل GPT-J با 6.7B پارامتر به طور قابل توجهی بهبود می بخشه و باعث میشه حتی از مدل بسیار بزرگتر GPT-3 در طیف وسیعی از وظایف مختلف پایین‌دستی (یا همان downstream tasks) بهتر عمل کنه، بدون اینکه تواناهایی مدل سازی زبان اصلی را ازدست بده.

لینک مقاله:
https://arxiv.org/abs/2302.04761

پ.ن. این پست را خانم وحیدی درست کردند و به کانال فرستادند. شما هم اگر پست خوبی دارید بگید تا به اسم و با لینک به لینکداین خودتون منتشر کنیم.

#read
#paper

@nlp_stuff



tg-me.com/nlp_stuff/327
Create:
Last Update:

معرفی Toolformer

مدل‌های زبانی، در حل وظایف جدید با تنها چند مثال یا دستورالعمل متنی توانایی‌های قابل توجهی دارند، به ویژه در مقیاس بزرگ. در عین حال، برای عملکردهای پایه‌ای مثل محاسبات یا جستجوی factها دچار مشکل هستند، جایی که مدل‌های ساده‌تر و کوچک‌تر بسیار عالی عمل می‌کنند. این مقاله با معرفی Toolformer، نشون میده که مدل‌های زبانی چطوری می‌تونند خودشون رو با استفاده از API‌های ساده، آموزش بدن تا بهترین راهکار رو داشته باشند. مدل Toolformer، آموزش میبینه که تصمیم بگیره کدام API رو فراخوانی کنه، چه زمانی اونها رو فراخوانی کنه، چه آرگومان‌هایی رو منتقل کنه و چطوری به بهترین شکل از ترکیب نتایج برای پیش‌بینی توکن بعدی استفاده کنه.

این APIهای گنجانده شده در Toolformer شامل ماشین حساب، سیستم پرسش و پاسخ، موتور جستجو، سیستم ترجمه و یک تقویمه. آموزش این مدل به صورت خودبخودی و خودآموزه، که تنها به چند تا نمونه برای هر API نیاز داره. یعنی با استفاده از تعداد انگشت شماری نمونه‌های نوشته شده توسط انسان از فراخوانی یک API، به مدل این امکان داده میشه که برای یک مجموعه داده‌ی زبانی بزرگ، کاندیدهای فرخوانی API رو مرتبط با محتوای متن ایجاد کند (in-context learning). سپس با استفاده از یک تابع self-supervised loss مشخص میشه کدام فراخوانی‌ APIها واقعا به مدل برای پیش‌بینی توکن بعدی کمک می‌کنه. در نهایت مدل روی فراخوان‌های API ای که مفیدند finetune میشه.

مدل Toolformer، عملکرد zero-shot  رو برای مدل GPT-J با 6.7B پارامتر به طور قابل توجهی بهبود می بخشه و باعث میشه حتی از مدل بسیار بزرگتر GPT-3 در طیف وسیعی از وظایف مختلف پایین‌دستی (یا همان downstream tasks) بهتر عمل کنه، بدون اینکه تواناهایی مدل سازی زبان اصلی را ازدست بده.

لینک مقاله:
https://arxiv.org/abs/2302.04761

پ.ن. این پست را خانم وحیدی درست کردند و به کانال فرستادند. شما هم اگر پست خوبی دارید بگید تا به اسم و با لینک به لینکداین خودتون منتشر کنیم.

#read
#paper

@nlp_stuff

BY NLP stuff




Share with your friend now:
tg-me.com/nlp_stuff/327

View MORE
Open in Telegram


NLP stuff Telegram | DID YOU KNOW?

Date: |

Dump Scam in Leaked Telegram Chat

A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.

How to Buy Bitcoin?

Most people buy Bitcoin via exchanges, such as Coinbase. Exchanges allow you to buy, sell and hold cryptocurrency, and setting up an account is similar to opening a brokerage account—you’ll need to verify your identity and provide some kind of funding source, such as a bank account or debit card. Major exchanges include Coinbase, Kraken, and Gemini. You can also buy Bitcoin at a broker like Robinhood. Regardless of where you buy your Bitcoin, you’ll need a digital wallet in which to store it. This might be what’s called a hot wallet or a cold wallet. A hot wallet (also called an online wallet) is stored by an exchange or a provider in the cloud. Providers of online wallets include Exodus, Electrum and Mycelium. A cold wallet (or mobile wallet) is an offline device used to store Bitcoin and is not connected to the Internet. Some mobile wallet options include Trezor and Ledger.

NLP stuff from ca


Telegram NLP stuff
FROM USA